今天是連假最後一天
忘記傳直接失敗
Rule #16: Plan to launch and iterate
做好發布與迭代的計畫
不要預期現在發布的模型會是最後一個發布的模型,請考慮新增、調整、移除特徵或目標的難易程度,佈署與驗證的難易程度
Rule #17: Start with directly observed and reported features as opposed to learned features
優先使用直接觀測到的資料
這邊只是為了減少外部依賴,能的話盡量拿第一手的觀測資料來進行機器學習
Rule #18: Explore with features of content that generalize across contexts.
探索泛化的特徵
也就是無關上下文的特徵
Rule #19: Use very specific features when you can
使用具體特徵
Rule #20: Combine and modify existing features to create new features in human-understandable ways.
用可理解的方式組合與修改已有特徵,來取得新特徵
可以用的方式像
離散化:一個特徵表示是否小於18歲,一個特徵表示是否為18-35歲
組合:把本來{{男,女},{過重,正常}}組合成{過重男,正常男,過重女,正常女}
要注意,過多的特徵列可能會導致過擬合
Rule #21: The number of feature weights you can learn in a linear model is roughly proportional to the amount of data you have
線性模型中可學習的特徵權重數量與資料量成正比
也就是說當只要少量樣本時,不要挑戰過於特徵太多複雜的模型
Rule #22: Clean up features you are no longer using
清除不必要的特徵
當發現特徵對結果並不產生影響,或根本沒有使用到的時候,盡量不要保留此結果
Rule #23: You are not a typical end user
你不是典型的用戶
所以要知道使用者體驗如何,還是要給真實用戶試試
Rule #24: Measure the delta between models.
測量模型間的差異
Rule #25: When choosing models, utilitarian performance trumps predictive power.
選擇模型時,實用性比預測能力重要
像是要放在移動端上執行,就不能使用運算量太大的模型
Rule #26: Look for patterns in the measured errors, and create new features.
發現錯誤的出現的模式,建立新的特徵
簡單來說,就是觀察那些被預測錯的樣本,看看裡面有沒有什麼共同的特徵,把這個特徵加入模型。
Rule #27: Try to quantify observed undesirable behavior
試著量化觀察到的異常行為
當不知道模型的異常是如何引起的,不如先靠人工進行標記